Errorquake: Distribuciones de severidad de errores en LLMs abiertos
El benchmark Errorquake-10k muestra que la severidad de errores difiere en LLMs con igual precisión. Una métrica clave para evaluar modelos de IA.
El benchmark Errorquake-10k muestra que la severidad de errores difiere en LLMs con igual precisión. Una métrica clave para evaluar modelos de IA.